Atención Lineal Kalman: Filtrado Bayesiano Paralelo para Lenguaje
Descubre KLA: Atención Lineal de Kalman, un filtrado bayesiano paralelo que supera a Mamba y GLA en modelos de lenguaje.
Descubre KLA: Atención Lineal de Kalman, un filtrado bayesiano paralelo que supera a Mamba y GLA en modelos de lenguaje.
Descubre cómo la teoría bayesiana explica la aparición abrupta de patrones de copia en la atención de transformers. Un estudio sobre transiciones de fase.
DLA optimiza la atención en LLMs fusionando estados dinámicamente, reduciendo errores y manteniendo rendimiento en contextos largos.
Descubre SinkRec: modelo que mitiga el hundimiento semántico en recomendaciones de secuencias largas con memoria condicionada y redes delta. Eficiente.
Descubre cómo la diversidad de tareas de entrenamiento mejora el aprendizaje en contexto en transformers lineales. Un análisis teórico con subespacios de baja dimensión.
Aceleración 5x en atención lineal en NPU con inversión de matrices solo multiplicación, reduciendo 20% sobrecarga sin perder precisión.
Descubre cómo NAtS-L optimiza transformers combinando atención lineal y softmax por token, reduciendo coste sin perder expresividad en contextos largos.
DtR transforma transformers preentrenados en modelos híbridos eficientes mediante destilación y reemplazo de capas. Obtén precisión con menor costo computacional.
ProtoT usa prototipos para modelos de lenguaje interpretables, permitiendo transparencia y ediciones dirigidas.
Mejora la recuperación en contexto y la extrapolación de longitud en atención lineal usando una consulta condicionada por curvatura (CCQ), con bajo costo adicional.
Descubre cómo afinar modelos de atención lineal sin perder el aprendizaje en contexto. Consejos teóricos para mejorar el rendimiento zero-shot.
Descubre cómo las capas probabilísticas bayesianas mejoran la memoria en modelos de secuencias, reduciendo incertidumbre y aumentando robustez más allá del entrenamiento.